论文推荐|[ECCV2020] 可以看清吗? 使用角度监督进行内容感知纠正
本文简要介绍ECCV2020录用论文“Can You Read Me Now? Content Aware Rectification using Angle Supervision”的主要工作。该论文主要针对移动设备拍摄的文档图像进行几何校正,进而获得平整的文档图像,增强文档图像可阅读性的同时提升下游任务的效果。
一、研究背景
二、方法原理简述
图2 网络整体框架图
图2是这篇文章所提方法的整体结构,本文采用两个网络级联的两阶段方式,第一个网络进行多任务输出,预测得到输入图像的3维坐标(3D Coordinate)、形变的角度值(Warp Field Angle Values),曲率(Curvature)。第二个网络以第一个网络输出的3维坐标作为输入,输出得到反向映射图(Backward Map),利用反向映射图可以直接从输入的形变文档图中采样得到矫正后的文档图。
3维预测网络:第一个网络采用Unet结构。其为输入图的每一个像素都预测了一个3维坐标,同时还预测曲率值以及形变角度值,其中3维坐标图将作为第二网络的输入。三个输出都有相应的Ground-truth作为监督信息。
反向映射预测网络:第二个网络的任务是将第一个网络预测得到的3维坐标图转化成反向映射图。反向映射图为输出图的每个像素指定一个2维的向量,以该向量为坐标值,在形变文档图中采样,即可得到矫正后的平整文档图像。该网络基于DenseNet。
形变角度监督:本文采用的训练数据是基于[1]中的方法合成的,为了对上述输出的形变角度,作者在[1]方法基础上得到了形变角度的Ground-truth。
从反向映射图得到形变角度:如图3右边所示,对于反向映射图中一个像素点,以其为坐标原点,为其指定两个无穷小的向量,分别作为x轴和y轴,构成一个直角坐标系,再将这个直角坐标系映射回形变图,得到图3左边的结果,坐标系x轴y轴方向都发生了改变,分别计算两个轴的形变角度得到
从前向映射图(将平整文档图映射到形变文档图)得到形变角度以及相应的形变量值(Magnitude Values):方法与从反向映射图中得到形变角度类似,但这里是基于前向映射图,且为了得到形变量值,这里不直接计算形变角度
3维预测网络对于该形变角度的预测采用预测其偏移量的方式,而不是直接预测形变角度,Ground-truth中的形变量值则可以用作一种置信度或者是损失函数的权重:形变量值越大,其形变程度应该也越大。此外,作者认为文档中的文字部分是矫正过程应该关注的重点区域,这里应用了一个文字的掩膜(Text Mask),从而希望网络能够更关注于这些重点区域。
图3 形变角度计算方法示意图
曲率图监督:曲率图的Ground-truth基于[3]中的方法在3D Mesh上应用Laplace-Beltrami算子得到。曲率图突出反映了形变文档图中的非平整区域,这是形变角度和3维坐标无法突出表示的。
最终,作者采用以下损失函数对网络进行优化:
三、主要实验结果及可视化结果
表1 形变角度监督消融实验
表2 进一步的消融实验
表3 与DewarpNet在的定量比较结果
图4 与DewarpNet的可视化对比结果,左边一列为输入图,中间列为DewarpNet
从表1中可以看到,本文提出的利用形变角度来进行监督的几种方法(形变角度信息的监督、形变量值作为置信度、文字掩膜指导网络关注于重点区域)是具有有效性的。进一步地,表2中也证明了曲率图的引入也有利于调高网络的性能;同时,端到端联合训练的方式也有利于进一步提高性能。
四、总结及讨论
五、相关资源
Can You Read Me Now? Content Aware Rectification using Angle Supervision论文地址: https://link.springer.com/content/pdf/10.1007%2F978-3-030-58610-2_13.pdf DewarpNet 论文地址: https://openaccess.thecvf.com/content_ICCV_2019/papers/Das_DewarpNet_Single-Image_Document_Unwarping_With_Stacked_3D_and_2D_Regression_ICCV_2019_paper.pdf
参考文献
撰稿:张家鑫编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们:D